{{tag>Lucid Precise Quantal internet développement}}

----

====== Aspiration de sites avec httrack ======

**Httrack** est un célèbre aspirateur de sites web.

=== Avertissement ===
//Les sites volumineux (le forum et la documentation Ubuntu-fr compris), **ne doivent pas** être aspirés automatiquement, sous peine de blocage de votre adresse IP par le site. L'aspiration de sites doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à des contenus hors lignes. L'aspiration demande au site visé des ressources matérielles bien plus importante que le simple affichage d'une page web. Demandez l'autorisation au webmaster avant de procéder ! N'oublions pas aussi les problématiques liées à la propriété intellectuelle.//


===== Installation =====
Il existe deux versions de httrack :
  * La version de base :  [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt://httrack|httrack]]** (dépôt Universe).
  * La version graphique, qui va utiliser votre navigateur préféré : [[:tutoriel:comment_installer_un_paquet|installez le paquet]]   **[[apt://webhttrack|webhttrack]]** (dépôt Universe).




===== Utilisation =====
Votre navigateur doit être fermé avant de lancer webhttrack.

Nous allons nous intéresser ici à la version graphique, disponible dans le menu Internet => « WebHTTrack Website Copier »

<note important>
Le raccourci créé dans le menu Applications comporte la commande "webhttrack browse". Il lance l'index des sites //déjà// enregistrés. Pour un premier lancement il faut lancer la commande <code>webhttrack</code>
</note>

Votre navigateur ouvre alors un nouvel onglet.

  * Choisissez la langue (Français) ;
  * Faites « Suivant » ;
  * Choisissez le nom du projet, la catégorie et surtout le dossier ;
  * Choisissez « Copie Automatique de Site-web », et entrez l'adresse du site dans la case ;
  * Faites « Suivant » puis « Terminer » ;
  * C'est fait !

Des options plus avancées sont disponibles. N'hésitez-pas à expérimenter !
Par exemple, si vos sites aspirés présentent des défauts dans les images téléchargées, cela peut venir du nombre de connexions - options, onglet contrôle du flux - trop importantes. Ramener à 2 ou 1.

===== Utilisation en ligne de commande =====

Crée un miroir :

<code>httrack --mirror http://www.monsite.com</code>

Mettre à jour le projet courant :

<code>httrack --update</code>

Nettoyage du cache et fichier log :

<code>httrack --clean</code>

===== Voir aussi =====
  * [[http://www.httrack.com/|Site officiel]]

----